6.1 固有表現認識とは
named entity:固有表現
固有表現のラベルに分類する
固有表現抽出とも
固有表現のタイプ
固有表現認識のタスク
Flat NER
テキスト上で固有表現ラベルが重複せず、連続した固有表現しか存在しない設定の固有表現認識タスク (Kindle の位置No.3778-3779)
固有表現ラベルが重複しない(限界として複数のラベルが割り当てられる可能性があっても、1つのラベルを選ばなければならない)
制約が多いことから比較的アノテータ間でラベルの揺れは少なく、一貫したデータセットを構築しやすく、モデルも作成しやすい (Kindle の位置No.3783-3784)
実応用で多くの場合、採用される
Nested NER
固有表現がテキスト上で一部重複する
例:愛知県庁
「愛知県」地名
「愛知県庁」施設名
Discontinuous NER
固有表現認識タスクを解くためのアプローチ(図6.4)
系列ラベリング
トークン列の各要素に対して、固有表現ラベルを付与する (Kindle の位置No.3803)
トークン列と同じ長さのラベル列を予測する
ラベル列を予測する際にラベル間の遷移を考慮することでモデルの性能が向上する場合も多く (Kindle の位置No.3807-3808)
CRFに基づく層をモデルの最終層に加える
スパンベース
nested NERを解くための手法
生成型